Convolutional Neural Networks (CNNs) have proven very effective in image classification and show promise for audio. We use various CNN architectures to classify the soundtracks of a dataset of 70M training videos (5.24 million hours) with 30,871 video-level labels. We examine fully connected Deep Neural Networks (DNNs), AlexNet [1], VGG [2], Inception [3], and ResNet [4]. We investigate varying the size of both training set and label vocabulary, finding that analogs of the CNNs used in image classification do well on our audio classification task, and larger training and label sets help up to a point. A model using embeddings from these classifiers does much better than raw features on the Audio Set [5] Acoustic Event Detection (AED) classification task.
translated by 谷歌翻译
Much computer vision research has focused on natural images, but technical documents typically consist of abstract images, such as charts, drawings, diagrams, and schematics. How well do general web search engines discover abstract images? Recent advancements in computer vision and machine learning have led to the rise of reverse image search engines. Where conventional search engines accept a text query and return a set of document results, including images, a reverse image search accepts an image as a query and returns a set of images as results. This paper evaluates how well common reverse image search engines discover abstract images. We conducted an experiment leveraging images from Wikimedia Commons, a website known to be well indexed by Baidu, Bing, Google, and Yandex. We measure how difficult an image is to find again (retrievability), what percentage of images returned are relevant (precision), and the average number of results a visitor must review before finding the submitted image (mean reciprocal rank). When trying to discover the same image again among similar images, Yandex performs best. When searching for pages containing a specific image, Google and Yandex outperform the others when discovering photographs with precision scores ranging from 0.8191 to 0.8297, respectively. In both of these cases, Google and Yandex perform better with natural images than with abstract ones achieving a difference in retrievability as high as 54\% between images in these categories. These results affect anyone applying common web search engines to search for technical documents that use abstract images.
translated by 谷歌翻译
互联网审查制度是社会重要性的现象,并吸引了来自多个学科的调查。几个研究小组,例如审查的星球,已经部署了大规模的互联网测量平台,以收集网络可及性数据。但是,现有的研究通常依赖于手动设计的规则(即使用审查指纹)从数据中检测基于网络的Internet审查。尽管这种基于规则的方法产生了很高的真实积极检测率,但它面临着几个挑战:它需要人类的专业知识,费力,并且无法检测到规则未捕获的任何审查制度。为了克服这些挑战,我们设计和评估了基于潜在特征表示学习和基于图像的分类模型的分类模型,以检测基于网络的Internet审查制度。为了从网络可及性数据中推断潜在特征表示,我们提出了一个序列到序列自动编码器,以捕获数据中数据元素的结构和顺序。为了估算从推断的潜在特征估算审查事件的概率,我们依靠密集连接的多层神经网络模型。我们基于图像的分类模型将网络可及数据记录编码为灰度图像,并将图像分类为审查或不使用密集的卷积神经网络。我们使用持续评估使用审查行星的数据集比较和评估这两种方法。两种分类模型都能够检测基于网络的Internet审查制度,因为我们能够确定已知指纹未检测到的审查实例。潜在功能表示可能编码数据中的更多细微差别,因为潜在特征学习方法发现了新的审查实例的数量和更多样化的集合。
translated by 谷歌翻译
从图像中学习心脏运动中的时空对应关系对于理解心脏解剖结构的潜在动力学很重要。许多方法明确施加了平滑度约束,例如位移矢量字段(DVF)上的$ \ Mathcal {l} _2 $ NORM,而通常忽略转换中的生物力学可行性。其他几何约束要么正规化特定的感兴趣区域,例如在心肌上施加不可压缩性,要么引入其他步骤,例如在物理模拟的数据集上训练单独的基于网络的正规器。在这项工作中,我们提出了一个明确的生物力学知识,因为在所有心脏结构中对更通用的生物力学上可行的转化进行建模,而无需引入额外的训练复杂性,因此对预测的DVF进行了正则化。在2D MRI数据的背景下,我们验证了两个公开可用数据集的方法,并执行广泛的实验,以说明与其他竞争性正规化方案相比,我们提出的方法的有效性和鲁棒性。我们提出的方法可以通过视觉评估更好地保留生物力学特性,并使用定量评估指标显示分割性能的优势。该代码可在\ url {https://github.com/voldemort108x/bioinformed_reg}上公开获得。
translated by 谷歌翻译
我们介绍了Audioscopev2,这是一种最先进的通用音频视频在屏幕上的声音分离系统,该系统能够通过观看野外视频来学习将声音与屏幕上的对象相关联。我们确定了先前关于视听屏幕上的声音分离的几个局限性,包括对时空注意力的粗略分辨率,音频分离模型的收敛性不佳,培训和评估数据的差异有限,以及未能说明贸易。在保存屏幕声音和抑制屏幕外声音之间的关闭。我们为所有这些问题提供解决方案。我们提出的跨模式和自我发场网络体系结构随着时间的推移以精细的分辨率捕获了视听依赖性,我们还提出了有效的可分离变体,这些变体能够扩展到更长的视频而不牺牲太多性能。我们还发现,仅在音频上进行预训练模型可大大改善结果。为了进行培训和评估,我们从大型野外视频数据库(YFCC100M)中收集了新的屏幕上的人类注释。这个新数据集更加多样化和具有挑战性。最后,我们提出了一个校准过程,该过程允许对屏幕重建与屏幕外抑制进行精确调整,从而大大简化了具有不同操作点的模型之间的性能。总体而言,我们的实验结果表明,在屏幕上的分离性能在更一般条件下的屏幕分离性能的改善要比以前具有最小的额外计算复杂性的方法更为普遍。
translated by 谷歌翻译
我们研究了伍德伯里(Woodbury)身份不再存在时伍德伯里(Woodbury Matrix)身份的单数配方中产生的矩阵。我们为此类矩阵提供了广义的逆和伪确定身份,这些身份直接应用于高斯过程回归,尤其是其可能性表示及其精度矩阵。我们还为提出的确定性身份提供了有效的算法和数值分析,并在某些条件下证明了它们的优势,这些条件适用于高斯过程回归的可能性函数计算对数确定术语。
translated by 谷歌翻译
由于颜色,照明,纹理和镜面反射的变化,光学结肠镜检查(OC)视频帧的自动分析(OC)框架(在OC期间有助于内镜医生)具有挑战性。先前的方法要么通过预处理(使管道变得麻烦)删除其中的一些变化,要么添加带注释(但昂贵且耗时)的多种培训数据。我们提出了CLTS-GAN,这是一种新的深度学习模型,可很好地控制OC视频帧的颜色,照明,纹理和镜面反射合成。我们表明,将这些特定于结肠镜检查的增强添加到训练数据中可以改善最新的息肉检测/分割方法,并推动下一代OC模拟器用于培训医学生。CLTS-GAN的代码和预训练模型可在计算内窥镜平台GitHub(https://github.com/nadeemlab/cep)上获得。
translated by 谷歌翻译
我们开发了一个计算程序,以估计具有附加噪声的半摩托车高斯过程回归模型的协方差超参数。也就是说,提出的方法可用于有效估计相关误差的方差,以及基于最大化边际似然函数的噪声方差。我们的方法涉及适当地降低超参数空间的维度,以简化单变量的根发现问题的估计过程。此外,我们得出了边际似然函数及其衍生物的边界和渐近线,这对于缩小高参数搜索的初始范围很有用。使用数值示例,我们证明了与传统参数优化相比,提出方法的计算优势和鲁棒性。
translated by 谷歌翻译
本文探讨了培训来生成代码的大型语言模型(LLMS)可以极大地提高对基因编程(GP)应用程序的突变操作员的有效性。由于此类LLM受益于包括顺序更改和修改的训练数据,因此它们可以近似人类会做出的可能变化。为了强调通过大型模型(ELM)的这种进化的含义的广度,在主要实验ELM与MAP-ELITE结合产生了数十万个Python程序的功能示例,这些示例在Sodarace域中输出了在Sodarace域中运行AMBULE的机器人,原始LLM从未在预训练中见过。然后,这些示例有助于引导培训一种新的条件语言模型,该模型可以为特定地形输出合适的步行者。引导新模型可以在以前可用的零培训数据中为给定上下文中输出适当的工件的新模型具有对开放性,深度学习和增强学习的影响。在这里深入探讨了这些含义,以期激发榆树现在打开的新研究方向。
translated by 谷歌翻译
我们概括了模型预测路径积分控制(MPPI)的推导,以允许对照序列中的对照组进行单个关节分布。这种改革允许实施自适应重要性采样(AIS)算法,以在最初的重要性采样步骤中实施,同时仍保持MPPI的好处,例如使用任意系统动态和成本功能。在模拟环境中证明了通过在每个控制步骤中集成AIS来优化建议分布的好处,包括控制轨道周围的多辆车。新算法比MPPI更有效地样品,可以通过更少的样品实现更好的性能。随着动作空间的维度的增加,这种性能差异会增长。模拟的结果表明,新算法可以用作任何时间算法,从而增加了每次迭代的控制值与依赖大量样品的算法。
translated by 谷歌翻译